193 research outputs found
Strojový překlad přes tektogramatickou rovinu v systému TectoMT
English-to-Czech machine translation implemented in TectoMT system consists of three phases: analysis, transfer, and synthesis. Transfer is performed on the tectogrammatical layer which is modified for MT purposes. Each phase is divided into so-called blocks which solve particular linguistically interpretable tasks (e.g. tagging with statistic tagger or clitic shifting according to hand-written rules). TectoMT system is designed in a modular way - blocks can be substituted with alternative implementations. The talk presents basic steps of the whole translation and focuses on improvements implemented in the last year, especially:
(a) tectogrammatical LM and Hidden Markov Tree Models,
(b) new translation dictionaries trained on parallel corpus CzEng using Maximum Entropy
Treex: Modular NLP Framework
Treex is a multi-purpose open-source natural language processing (NLP) framework implemented in Perl programming language. It allows for fast and efficient development of NLP applications by exploiting a wide range of software modules already integrated in Treex, such as tools for sentence segmentation, tokenization, morphological analysis, POS tagging, shallow and deep syntax parsing, named entity recognition, anaphora resolution, tree-to-tree translation, natural language generation, word-level alignment of parallel corpora, and other tasks. One of the most complex applications of Treex is the English-Czech machine translation system TectoMT. Several modules are available also for other languages (German, Russian, Arabic). Where possible, modules are implemented in a language-independent way, so they can be reused in many applications
Strojový překlad s využitím syntaktické analýzy
Strojový překlad s využitím syntaktické analýzy Martin Popel Tato práce popisuje zlepšení anglicko-českého a česko-anglického strojo- vého překladu pomocí metod, které lze použít i na další jazyky. V první části je popsáno několik zlepšení hloubkově-syntaktického překladače TectoMT, například rozšíření pro další jazyky a domény nebo implementace nového typu překladových modelů využívajících kontext a různé metody strojového učení. V druhé části je popsán neuronový překladač Transformer a jeho vy- lepšení. Po detailní analýze vlivu různých hyperparametrů, bylo optimali- zováno trénování systému tak, že dosáhl o 1.0 BLEU lepšího překladu než nejlepší systém v soutěži WMT2017. Využitím jednojazyčných dat cílového jazyka pomocí nového typu zpětného překladu bylo dosaženo dalšího zlep- šení kvality překladu o 2.8 BLEU. Využitím doménové adaptace zohledňující "překladštinu" (translationese) - tedy zohledněním toho, zda paralelní data jsou původně psána česky, nebo anglicky - byl výsledný systém vylepšen o dalších 0.2 BLEU. Tento výsledný neuronový překladač byl signifikantně lepší (p<0.05) než všechny ostatní anglicko-české a česko-anglické překladače v soutěži WMT2018. Podle výsledků ručního hodnocení byla kvalita tohoto strojového překladu dokonce vyšší než kvalita lidského referenčního překladu.Machine Translation Using Syntactic Analysis Martin Popel This thesis describes our improvement of machine translation (MT), with a special focus on the English-Czech language pair, but using techniques ap- plicable also to other languages. First, we present multiple improvements of the deep-syntactic system TectoMT. For instance, we implemented a novel context-sensitive translation model, comparing several machine learning ap- proaches. We also adapted TectoMT to other domains and languages. Sec- ond, we present Transformer - a state-of-the-art end-to-end neural MT sys- tem. We analyzed in detail the effect of several training hyper-parameters. With our optimized training, the system outperformed the best result on the WMT2017 test set by +1.0 BLEU. We further extended this system by uti- lization of monolingual training data and by a new type of backtranslation (+2.8 BLEU compared to the baseline system). In addition, we leveraged domain adaptation and the effect of "translationese" (i.e which language in parallel data is the original and which is the translation) to optimize MT systems for original-language and translated-language data (gaining further +0.2 BLEU). Our improved neural MT system significantly (p¡0.05) out- performed all other systems in English-Czech and Czech-English WMT2018 shared tasks,...Ústav formální a aplikované lingvistikyInstitute of Formal and Applied LinguisticsMatematicko-fyzikální fakultaFaculty of Mathematics and Physic
CUNI in WMT14: Chimera Still Awaits Bellerophon
We present our English→Czech and
English→Hindi submissions for this
year’s WMT translation task. For
English→Czech, we build upon last year’s
CHIMERA and evaluate several setups.
English→Hindi is a new language pair for
this year. We experimented with reverse
self-training to acquire more (synthetic)
parallel data and with modeling target-side
morphology
A Grain of Salt for the WMT Manual Evaluation
The Workshop on Statistical Machine Translation (WMT) has become one of ACL's
flagship workshops, held annually since 2006. In addition to soliciting papers
from the research community, WMT also features a shared translation task for
evaluating MT systems. This shared task is notable for having manual evaluation
as its cornerstone.
The Workshop's overview paper, playing a descriptive and administrative role, reports
the main results of the evaluation without delving deep into analyzing those results.
The aim of this paper is to investigate and explain some interesting idiosyncrasies
in the reported results, which only become apparent when performing a more thorough
analysis of the collected annotations. Our analysis sheds some light on how the
reported results should (and should not) be interpreted, and also gives rise to some helpful
recommendation for the organizers of WMT
Formemes in English-Czech Deep Syntactic MT
One of the most notable recent improvements of the TectoMT English-to-Czech translation is a systematic and theoretically supported revision of formemes—the annotation of morpho-syntactic features of content words in deep dependency syntactic structures based on the Prague tectogrammatics theory. Our modifications aim at reducing data sparsity, increasing consistency across languages and widening the usage area of this markup. Formemes can be used not only in MT, but in various other NLP tasks
- …